﻿ O perspectivă informatică integratoare asupra resurselor și instrumentelor lingvistice pentru limba română Dan Cristea Universitatea “Alexandru Ioan Cuza” din Iași, Facultatea de Informatică Academia Română Filiala Iași, Insititutul de Informatică Teoretică dcristea@info uaic ro Sursă – resursă – instrument ò Sursă: document originar pe suport hârtie ò Resursă: versiunea digitală a unei surse ò Scan: imagine pagină ò Versiune editabilă ò Resursă: date de altă natură decât textuală, care fac posibilă funcționarea unor instrumente ò Instrument: program care prelucrează o intrare pentru a produce o ieșire și face acest lucru făcând apel la resurse Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Tipuri de informații lingvistice Textuale Fonologice Resurse RT RF Standarde ST SF Instrumente IT IF Arhitecturi AT AF Arhitecturi Mixte Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Resurse Textuale (RT) – exemple ò Corpus de texte în format electronic ò Text adnotat la un anumit fenomen lingvistic ò Corpus de texte paralele ò Colecţie de reguli de segmentare a textelor româneşti ò Dicționar: colecţia cuvintelor flexionate româneşti ò O descriere paradigmatică a morfologiei româneşti ò Un model lingvistic al limbii române: tabel al frecvenței bigramelor de părți de vorbire ò Wordnetul românesc ò Dicţionare de subcategorizare ale limbii române (VerbNet, FrameNet) ò O colecție de dicţionare clasice aliniate ò Treebank – colecție de arbori sintactici ò … Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Resurse Fonologice (RF) – exemple ò O colecție de înregistrări vocale de cuvinte pronunţate izolat ò Un corpus de înregistrări vocale după dictare în româna standard ò Un corpus de înregistrări vocale în vorbirea spontană ò O colecţie de înregistrări vocale adnotate (pauză, cuvânt, accent, silabă etc ) ò … ò Corpus paralel voce-text sau voce-text-imagine ò Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Standarde Textuale (ST) – exemple ò Format al descrierilor morfo-sintactice ò Format de codificare a grupurilor nominale, verbale, prepoziţionale, de recursivitate limitată (în sensul că nu conţin subgrupuri verbale) ò Format UAIC de adnotare a treebank-ului românesc ò Format UD de adnotare a treebank-ului românesc ò Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Un instrument este un modul al unui lanț de prelucrare intrare ieşire standarde Modul standarde intrare ieşire resursă standarde resurse Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Instrumente Textuale (IT) ò Tokenizer: modul de depistare a graniţelor dintre cuvinte ò LookUpMSD: modul de depistare a interpretărilor morfo-sintactice ale cuvintelor prin căutare în dicţionar ò LookUpPar: modul de depistare a interpretărilor morfo-sintactice ale cuvintelor prin analiză paradigmatică ò Guesser: modul de ghicire din context a părții de vorbire a cuvintelor necunoscute ò POS-Tagger: modul de dezambiguizare morfo-sintactică ò NP-Chunker: modul de depistare a grupurilor nominale ò NER: modul de explicitare a numelor proprii ò AR: modul de rezolvare a referințelor anaforice ò FDGParser: parser sintactic ò DiscParser: modul de determinare a structurii de discurs ò Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Un lanț de prelucrare textuală Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Eliminarea Recunoașteea Standardizarea codurilor formatărilor limbii Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Segmentare Segmentare Etichetare Recunoașterea Recunoașterea la fraze la cuvinte la PDV lemelor grupurilor Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Dezambiguizarea Recunoașterea sensurilor rolurilor verbelor Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Segmentare Parsare la clauze sintactică Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Document Prelucrări inițiale subsintactice primar semantice Prelucrări Prelucrări sintactice rezultatde discurs Rezoluția Recunoașterea anaforei structurii Rezumare discursului Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări inițiale subsintactice document semantice Prelucrări Prelucrări sintactice rezultatde discurs Rezoluția Recunoașterea Analiză anaforei evenimentelor temporală și a situațiilor Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Un modul Prelucrare independentă de limbă Resurse dependente de limbă Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemplu: un parser sintactic Parser: software independent de limbă set de reguli sintactice pentru limba română Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Cum se obțin resursele? Pasul 1: extragerea expertizei umane text text adnotat lingvist Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Exemplu de resursă: treebank Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Cum se obțin resursele? Pasul 2: sinteza modelelor text Program de set de învățare reguli Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Cum se obțin resursele? Pasul 3: evaluarea text % Parser sintactic limbă set de reguli: sintaxa limbii române Colocviul de lingvistică, Instit Philippide, 30 mai 2018 CoRoLa (Contemporary Romanian Language) ò Proiect prioritar al Academiei Române (2014 - 2017); ò Parteneri: - Institutul de Cercetări pentru Inteligența Artificială (ICIA); - Institutul de Informatică Teoretică (IIT) ò Asociați (prin proiectul DRuKoLa – finanţat de Fundaţia Humboldt): ò Universitatea București ò IDS Mannheim Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Fabrica CoRoLa Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Procurarea datelor primare: Curator – Proprietar – Portal Portalul COROLA Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Curățare, introducere metadate: Portal – Voluntari – Portal Portalul COROLA: Iași• Curățare• MetadateIIT 1 Titlu1 Cod 2 Autorcaractere 2 Headere3 Data subsolpublicării3 Note 4 Sursa4 Formule 5 Traducător5 Ta b e l e 6 Mediu6 Cuprins 7 Stil7 Bibliograﬁe 8 Domeniuetc 9 ISSN/ISBN Colocviul de lingvistică, Instit Philippide, 30 mai 2018 CoDAP CoRoLa Data cleaning and metadata Platform (http://89 38 230 23/) Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Panțul de prelucrare: Portal • Adnotări: • Segmentare fraze • Tokeni lexicali • PunctuațiePortalul • Parte de vorbireCOROLA: IIT Iași• Morfologie • Grupuri nominale • Sintaxă • Semantică • … TOKPOSNP TTL pipe-line Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Accesul la corpus Punct de acces: RACAI, București Oglinda: IIT, Iași Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Concordanțe (KWIC – Key Word In Context) … 34 Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Și mai departe? ò 7 puncte de vedere personale Colocviul de lingvistică, Instit Philippide, 30 mai 2018 1 Corectarea trebuie continuată ò Surse de erori ò coduri de diacritice neconvenționale ò incompatibilități între adnotări TTL și interfața KorAP ò erori în metadate ò erori de aliniere între vorbire și text ò etc ò Filtrarea erorilor ò programatică ò manuală ò utilizând serviciul online de raportare a erorilor Colocviul de lingvistică, Instit Philippide, 30 mai 2018 2 Adăugare de noi niveluri de adnotare ò Temă inclusă în planurile anuale ale IIT și ICIA ò NP, VP ò sintaxă (de dependențe) ò un mixaj sintaxă-semantică Imagine oferită de Cătălina Mărănduc, raport de doctorat, dec 2017 3 Dezvoltare continuă ò Obținerea de noi date textuale și de vorbire ò de la furnizorii tradiționali, dar și de la alții noi ò asigurarea unui echilibru între domenii și stiluri ò organizarea de servicii de crawling pentru preluare continuă din online (modelul Mannheim) ò Dacă automatizăm complet procesul: dezvoltare permanentă, sincronă cu dezvoltarea limbii ò "românesc contemporan" ar trebui să fie valabil acum, precum și peste 50 de ani ò păstrând doar datele actuale, el va deveni un corpus învechit, nici măcar unul diacronic Colocviul de lingvistică, Instit Philippide, 30 mai 2018 4 Orientare spre trecut: dezvoltarea unui corpus diacronic ò CyRo (un proiect care a trecut de faza a 2-a de evaluare): un pipeline OCR => transcriere chirilic-latin: ò achiziția semi-automată a documentelor românești din secolele 16-19 în manuscris, semi-uncial și tipărit ò inferența morfologiei paradigmatice a scrisurilor vechi românești ò utilizarea și a citatelor din eDTLR ò pași: documente originare => scanate => OCRizate => transcrise interpretativ => revizuite manual => adnotate TOK+POS+etc => incluse în corpusul diacronic Colocviul de lingvistică, Instit Philippide, 30 mai 2018 CyRo – româna scrisă în alfabet chirilic ò Procurarea unei colecții de documente cu scriere chirilică în limba română în format digital care acoperă toate perioadele istorice, interpretate în alfabet latin ò Adăugarea de metadate și adnotări ò Antrenarea de segmentatoare pentru identificarea în paginile scanate: limitele blocurilor de text, liniile, cuvintele, caracterele ò Antrenarea de programe OCR pentru decodarea documentelor: tipărite, semi-uncial și cursiv în chirilice românești ò Aplicarea de reguli de interpretare pentru transcrierea din alfabetul chirilic în cel latin ò Dezvoltarea unei interfațe prietenoase care să ajute cercetătorii umaniști (filologi, lingviști, istorici, arheologi, sociologi etc ): indexare, regăsire documentară, editare critică, studii de interpretare culturală etc Colocviul de lingvistică, Instit Philippide, 30 mai 2018 CyRo – scopuri ambițioase, un consorțiu puternic ò Paleolingviști ò Lingviști informaticieni ò Speclaliști în prelucrarea imaginilor ò Curatori bibliotecari Imagine creată de Gabriela Haja, pentru propunerea de proiect CyRo, iulie 2017 5 Îmbunătățirea accesului ò Pentru cercetătorii limbii române și utilizatorii ocazionali ò marcarea și exportul ocurențelor (liste) și a sub-corpusurilor ò posibilitatea de utilizare a constrângerilor de natură sintactică și semantică ò servicii asociate corpusului (accesibil prin program): ò deschiderea pentru sarcini de lingvistică computațională ò conectarea la CoRoLa a aplicațiilor ò CoRoLa privit ca Big Textual Data Colocviul de lingvistică, Instit Philippide, 30 mai 2018 6 Legarea corpusului CoRoLa cu alte resurse lingvistice ò În practica obișnuită, procesele de prelucrare a limbajului de nivel înalt sunt instruite pe resurse care combină datele lingvistice brute cu adnotările experților ò să utilizăm CoRoLa ca o ancoră de care sunt legate (prin metode Lingvistic Linked Open Data) alte resurse lingvistice: eDTLR, CLRE, WordNet, dicționare bilingve (ex Tiktin, dicționarul român-german, ediția a 3-a) ò să construim un mediu care să permită interogări complexe, accesând simultan resurse de diferite tipuri Colocviul de lingvistică, Instit Philippide, 30 mai 2018 7 Cooperare și diseminare ò DRUKOLA: colaborarea cu echipa IDS Mannheim ò îmbunătățirea interfeței ò realizarea de studii de caz comparative în limbile germană și română ò experimentarea unei platforme comune de analiză a corpusului pentru a împărtăși rezultate tehnice și de cercetare lingvistică ò EuReKo: o structură de cristalizare pentru un corpus de referință federalizat ò fiecare colecție de date textuale specifică unei limbi este localizată fizic și întreținută de institutele sale responsabile, dar permite interogări combinate și extragerea de corpusuri comparabile ò criterii unificatoare: metodologia, metadatele, limbajul de interogare, infrastructura software Colocviul de lingvistică, Instit Philippide, 30 mai 2018 7 Cooperare și diseminare ò Inițiative de colaborare cu Rep Moldova ò Organizarea de evenimente de lansare in Chișinău, Iași, Cluj- Napoca, Timișoara etc ò Orchestrarea folosirii corpusului CoRoLa în facultățile de Litere și în institutele limbii române ò Colecționarea de reacții din partea utilizatorilor și îmbunătățiri aduse corpusului și tehnologiei pe baza lor Colocviul de lingvistică, Instit Philippide, 30 mai 2018 Vă mulțumesc! Recunoștință pentru: ò Unii dintre foștii și actualii mei studenți doctoranzi: Paul Diac, Andreea Gagea, Daniela Gîfu, Adrian Iftene, Cătălina Mărănduc, Alex Moruz, Augusto Perez, Ionuț Pistol, Laura Pistol, Marius Răschip, Andrei Scutelnicu, Radu Simionescu, Diana Trandabăț ò Toate seriile de studenți masteranzi în Lingvistică Computațională care au lucrat cu mine în perioada 2003-2018 ò Câteva dintre proiectele trecute și prezente în care am participat: Balkanet, LT4eL, MetaNet, eDTLR, MappingBooks, CoRoLa, DRuKoLa, ReteRom Colocviul de lingvistică, Instit Philippide, 30 mai 2018 